最小二乘法与线性回归
引言:回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
线性回归是一种最为我们熟悉的方式,故接下来我们就来详细了解线性回归。
1. 最小二乘法原理
例如我们有一组数据,分别对应x(横坐标)与y(纵坐标)。我们试图建立x与y的等式关系,并探究x预测y的可靠性。通过绘制散点图,我们可以对该组数据拟合无数条直线,但是怎样找到最佳拟合直线呢?最小二乘法可以解决这一问题。
第一步:如下。不考虑x值,计算y值的均值b。Mean(y)=3.5。
第二步:如下。以均值形成拟合直线y=3.5,计算各数据点到y=3.5的距离的平方和,统计术语为围绕均值的平方和(sum square around mean,SS(mean))。
残差: 各个观测数据(observed data)到拟合直线y=3.5的距离成为均值拟合直线的残差(residual),即实际数据与预测数据的差异; 残差平方和: SS(mean)又称该拟合均值直线对应的残差平方和,此处得SS(mean)=24.62。
第三步:旋转均值直线,求解不同拟合直线对原始数据的拟合效果。随着直线的旋转,不同拟合直线对应的残差平方和不断发生改变(如下):
如何评价拟合的效果?
当直线对原始数据的拟合效果较好时,大部分数据靠近直线分布,故该直线对应的残差平方和较小。再次强调,残差为实际数据与预测数据的差异。 换句话说,拟合直线对应残差平方和表示直线的拟合效果,残差平方和越小,说明直线的拟合效果越好。
2. 最小二乘法求解最佳拟合直线
直线回归方程的通用公式为:
y=a·x+b
其中a表示直线方程的斜率(slope),b表示直线方程的截距(intercept)。为了寻找原始数据的最优拟合回归直线,故需要求解对应残差平方和最小回归直线的a与b。
残差平方和的计算公式:
SS(mean) = ((ax1 + b )-y1)^2+((ax2 + b )-y2)^2+((ax3 + b )-y3)^2 +
...+((axn + b )-yn)^2
②观测y(observed y):y1,y2,...,yn表示实际观测到的y1,y2,...,yn。
最小二乘法(least square)名称的由来:基于残差平方和的方法得出最优“a”与“b”,进而寻找最小残差平方和对应的直线,故该方法被称为“最小二乘法(least square)”。
第四步:对残差平方和公式进行求导,寻找最优拟合回归直线。 如果我们绘制每一条直线斜率与其对应残差平方和的散点图(如下)。可以发现,当该曲线取得最小残差平方和时,斜率为0。
对函数求导可以得出曲线上任意一点对应的斜率,故我们可对函数求导,利用导数等于0的性质,求解最优。
从应用统计学的角度出发,计算机程序可以帮我们求最优解,我们不用亲自掌握函数如何求导。最后,我们得出最佳拟合回归直线:y=0.77x+0.66,该直线对应的残差平方和最小。
3.小结
现在我们开启新的一部分学习,在这接下来的几个章节,我们将逐渐学习线性回归的基础知识。在这一小节中,我们主要学习了最小二乘法的原理,以及如何利用最小二乘法判断和求解最佳拟合直线。
参考视频:
https://www.youtube.com/watch?v=PaFPbb66DxQ&list=PLblh5JKOoLUIzaEkCLIUxQFjPIlapw8nU&index=1
编辑:吕琼
校审:罗鹏